2.4 重随机化回归调整

我们在 2.3 看到了对于单个离散的协变量 $X$ 的分层与后分层. 但是如果协变量是多维的/连续的呢? 在这里我们介绍重随机化和回归调整.

	设计	分析
离散的协变量	分层	后分层
一般的协变量	重随机化	回归调整

1 重随机化

1.1 实验设计

依然假设 $n$ 个实验单元, 这里 $n_{1}$ 个实验组 $n_{0}$ 个对照组. 记 $Z = (Z_{1}, \dots, Z_{n})$ 为指示实验组分配的向量. $i$ 有协变量 $X_{i} \in R^{K}$ , 将他们合并成 $n \times K$ 协变量矩阵 $X = (X_{1}, \dots, X_{n})^{T}$ . 假设 $\overset{―}{X} = \frac{1}{n} \sum_{i = 1}^{n} X_{i} = 0$ .
CRE 中 ${\hat{τ}}_{X} = \frac{1}{n_{1}} \sum_{i = 1}^{n} Z_{i} X_{i} - \frac{1}{n_{0}} \sum_{i = 1}^{n} (1 - Z_{i}) X_{i}$ 有均值 $0$ , 但实际分组中通常都不为 $0$ . 我们可以证明 $Cov ({\hat{τ}}_{X}) = \frac{1}{n_{1}} S_{X}^{2} + \frac{1}{n_{0}} S_{X}^{2} = \frac{n}{n_{1} n_{0}} S_{X}^{2},$ 这里 $S_{X}^{2} = \frac{1}{n - 1} \sum_{i = 1}^{n} X_{i} X_{i}^{T}$ .

Neyman 的向量版本

我们把 Neyman定理从数值结果拓展为向量结果. 考虑向量结果的平均因果效应 $τ_{V} = \frac{1}{n} \sum_{i = 1}^{n} {V_{i} (1) - V_{i} (0)}, V \in R^{K} .$
估计量 ${\hat{τ}}_{V} = {\overset{―}{V}}_{1} - {\overset{―}{V}}_{0} = \frac{1}{n_{1}} \sum_{i = 1}^{n} Z_{i} V_{i} - \frac{1}{n_{0}} \sum_{i = 1}^{n} (1 - Z_{i}) V_{i} .$ 则 ${\hat{τ}}_{V}$ 是 $τ_{V}$ 的无偏估计.

我们可以用 Mahalanobis 距离 $M = {\hat{τ}}_{X}^{T} Cov ({\hat{τ}}_{X})^{- 1} {\hat{τ}}_{X} = {\hat{τ}}_{X}^{T} {(\frac{n}{n_{1} n_{0}} S_{X}^{2})}^{- 1} {\hat{τ}}_{X}$
来定义实验、对照组的相异程度. 这个式子只在 $S_{X}^{2}$ 可逆的时候有意义, 也即 $X$ 的列线性无关. 我们要在实验前去掉线性相关的列.

引理

如果我们对 $X_{i}$ 做线性变换 $X_{i} \to b_{0} + B X_{i}, \forall 1 \leq i \leq n$ , 这里 $b_{0} \in R^{K}, B \in R^{K \times K}$ 可逆, 则 $M$ 保持不变.

当 $n$ 很大, CRE 下 $M$ 基本上就是 $χ_{K}^{2}$ . 因此 $M$ 在 $n$ 很大时几乎有均值 $K$ 和方差 $2 K$ . 当我们进行随机化, 我们评估 $M$ 的值, 当它很大时我们舍弃它, 这样就实现了重随机化.

ReM

从 CRE 中采样 $Z$ , 只在 $M \leq a$ 的时候接受它, 这里 $a > 0$ 是我们事先确认的常量.

当 $a$ 很大时, 几乎就是 CRE; 当 $a$ 很小时, 没有什么随机化的空间基本上没用. 我们一般选一个小的但是不是特别小的 $a$ , 例如 $a = 0.001$ , 或者一些 $χ_{K}^{2}$ 的较大的分位数.

1.2 统计推断

如果我们不给出很强的零假设, 如何得到有限样本的相关性质? 我们定义下面的假设条件:

假设

当 $n \to \infty$ 时,

$\frac{n_{1}}{n}$ , $\frac{n_{0}}{n}$ 有正的极限.
${X_{i}, Y_{i} (1), Y_{i} (0), τ_{i}}$ 的协方差有有限的极限
$max_{1 \leq i \leq n} \frac{{Y_{i} (1) - \overset{―}{Y} (1)}^{2}}{n} \to 0$ , $max_{1 \leq i \leq n} \frac{{Y_{i} (0) - \overset{―}{Y} (0)}^{2}}{n} \to 0$ , $max_{1 \leq i \leq n} \frac{X_{i}^{T} X_{i}}{n} \to 0$ .

记 $L_{K, a} \sim D_{1} | D^{T} D \leq a,$ 这里 $D = (D_{1}, \dots, D_{K})$ 服从一个 $K$ 维标准正态分布; 记 $ε$ 服从标准正态分布, $L_{K, a} ⊥ ⊥ ε$ .

定理

在 $M \leq a$ 的 ReM 和上述假设下, ^[1] $\hat{τ} - τ \sim \sqrt{Var (\hat{τ})} {\sqrt{R^{2}} L_{K, a} + \sqrt{1 - R^{2}} ε},$ 这里 $Var (\hat{τ}) = \frac{S^{2} (1)}{n_{1}} + \frac{S^{2} (0)}{n_{0}} - \frac{S^{2} (τ)}{n}$ 是我们在 Neyman 定理里证明过的样本方差, $R^{2} = {Corr}^{2} (\hat{τ}, {\hat{τ}}_{X})$ 是相关系数的平方.

Pasted image 20251010092710.png|400

这个定理有直观的几何解释. 如图, $\hat{τ} - τ$ 可以分解成一个 ${\hat{τ}}_{X}$ 里的线性组合的分量, 以及一个正交 ${\hat{τ}}_{X}$ 的分量, 它们的比例关系为 $\sqrt{R^{2}} L_{K, a} : \sqrt{1 - R^{2}} ε$ . ReM 只会影响第一个分量.

当 $a = \infty$ , 渐近分布退化为 CRE: $\hat{τ} - τ \sim \sqrt{Var (\hat{τ})} ε$ . 当 $a$ 接近 $0$ , $L_{K, a} \to 0$ , $\hat{τ} - τ \sim \sqrt{Var (\hat{τ}) (1 - R^{2})} ε$ .

命题

在 CRE 下我们有 $R^{2} = {Corr}^{2} (\hat{τ}, {\hat{τ}}_{X}) = \frac{n_{1}^{- 1} S^{2} (1 | X) + n_{0}^{- 1} S^{2} (0 | X) - n^{- 1} S^{2} (τ | X)}{n_{1}^{- 1} S^{2} (1) + n_{0}^{- 1} S^{2} (0) - n^{- 1} S^{2} (τ)},$ 这里 ${S^{2} (1), S^{2} (0), S^{2} (τ)}$ 是 ${Y_{i} (1), Y_{i} (0), τ_{i}}_{i = 1}^{n}$ 的有限总体的方差, ${S^{2} (1 | x), S^{2} (0 | x), S^{2} (τ | x)}$ 是对应的它们在 $(1, X_{i})$ 上的线性投影.
在假设 $τ_{i} = τ$ 下, $R^{2} = \frac{S^{2} (0 | X)}{S^{2} (0)}$ .

2 回归调整

如果在设计阶段我们不进行重随机化, 而是在分析阶段处理协变量的不均匀分布呢?

2.1 调整协变量的 FRT

有了协变量, FRT 的大致思路不变.

伪结果策略

我们可以基于残差构建检验量. 我们把 $Y_{i}$ 在 $X_{i}$ 上回归^[2]得到 ${\hat{ε}}_{i}$ .

模型结果策略

我们可以把回归的系数作为检验量. 把 $Y_{i}$ 在 $(Z_{i}, X_{i})$ 上回归, 得到 $Z_{i}$ 的系数.

伪结果策略不包含 $Z_{i}$ , 因为我们要确保如果原始结果符合 $H_{0 F}$ , 则伪结果也符合. 而在模型结果策略中, 我们加入 $Z_{i}$ 的系数来看看它和 $H_{0 F}$ 的偏离程度. 从计算上看, 策略 1 要运行 1 次, 策略 2 要运行若干次.

2.2 协方差的分析

Fisher 提出了协方差分析 (ANCOVA). 在 $(1, Z_{i}, X_{i})$ 上对 $Y_{i}$ 回归, 把 $Z_{i}$ 的系数作为 $τ$ 的估计量. 记最后的结果为 ${\hat{τ}}_{F}$ .
David A. Freedman 和 Winston Lin 先后提出

${\hat{τ}}_{F}$ 是有偏的, 但当样本量趋于无穷时趋于 $0$
${\hat{τ}}_{F}$ 相比 $\hat{τ}$ 有更大的渐近方差, 但是改为在 $(1, Z_{i}, X_{i}, Z_{i} \times X_{i})$ 上 OLS 回归, 可以减小. 记为 ${\hat{τ}}_{L}$ .

Neyman 定理指出 $\hat{τ}$ 的方差取决于潜在结果的方差, 因此我们可以试图减小潜在结果的方差. 考虑线性调整族 $\begin{aligned} \hat{τ} (β_{1}, β_{0}) & = \frac{1}{n_{1}} \sum_{i = 1}^{n} Z_{i} (Y_{i} - β_{1}^{T} X_{i}) - \frac{1}{n_{0}} \sum_{i = 1}^{n} (1 - Z_{i}) (Y_{i} - β_{0}^{T} X_{i}) \\ = {\hat{\overset{―}{Y}} (1) - β_{1}^{T} \hat{\overset{―}{X}} (1)} - {\hat{\overset{―}{Y}} (0) - β_{0}^{T} \hat{\overset{―}{X}} (0)}, \end{aligned}$
这里 $\hat{\overset{―}{\cdot}}$ 是定义的样本均值. 当 $β_{1} = β_{0} = 0$ 时, 它就是 $\hat{τ}$ . 因为 $\overset{―}{X} = 0$ , 所以 $\hat{τ} (β_{1}, β_{0})$ (固定 $β_{1}, β_{0}$ ) 均值为 $0$ . 我们希望找到最小化 $\hat{τ} (β_{1}, β_{0})$ 的 $(β_{1}, β_{0})$ .
再次引用 Neyman定理, $Var {\hat{τ} (β_{1}, β_{0})} = \frac{S^{2} (1; β_{1})}{n_{1}} + \frac{S^{2} (0; β_{0})}{n_{0}} - \frac{S^{2} (τ; β_{1}, β_{0}}{n},$ 这里 $S^{2} (z; β_{z}), S^{2} (τ; β_{1}, β_{0})$ 是有限总体的方差 (分别是调节的潜在输出和个体因果效应).
基于此, 我们得到一个更保守的估计量^[3] $\hat{V} (β_{1}, β_{0}) = \frac{{\hat{S}}^{2} (1; β_{1})}{n_{1}} + \frac{{\hat{S}}^{2} (0; β_{0})}{n_{0}}$ , 这里 $\begin{aligned} {\hat{S}}^{2} (1; β_{1}) & = \frac{1}{n_{1} - 1} \sum_{i = 1}^{n} Z_{i} (Y_{i} - γ_{1} - β_{1}^{T} X_{i})^{2}, \\ {\hat{S}}^{2} (0; β_{0}) & = \frac{1}{n_{0} - 1} \sum_{i = 1}^{n} (1 - Z_{i}) (Y_{i} - γ_{0} - β_{0}^{T} X_{i})^{2} \end{aligned}$ 是样本方差, $γ_{1}, γ_{0}$ 是实验组下 $Y_{i} - β_{1}^{T} X_{i}$ 的样本均值, 和对照组下 $Y_{i} - β_{0}^{T} X_{i}$ 的样本均值. 我们解如下的最优化问题: $\begin{aligned} min_{γ_{1}, β_{1}} \sum_{i = 1}^{n} Z_{i} (Y_{i} - γ_{1} - β_{1}^{T} X_{i})^{2}, \\ min_{γ_{0}, β_{0}} \sum_{i = 1}^{n} (1 - Z_{i}) (Y_{i} - γ_{0} - β_{0}^{T} X_{i})^{2} . \end{aligned}$ 直接应用 OLS 得到 $({\hat{γ}}_{1}, {\hat{β}}_{1})$ 和 $({\hat{γ}}_{0}, {\hat{β}}_{0})$ . 再结合 OLS 的性质: $\hat{\overset{―}{Y}} (1) = {\hat{γ}}_{1} + {\hat{β}}_{1}^{T} \hat{\overset{―}{X}} (1)$ , $\hat{\overset{―}{Y}} = {\hat{γ}}_{0} + {\hat{β}}_{0}^{T} \hat{\overset{―}{X}} (0)$ , 得到 $\begin{matrix} (2.1) & \hat{τ} ({\hat{β}}_{1}, {\hat{β}}_{0}) = {\hat{γ}}_{1} - {\hat{γ}}_{0} . \end{matrix}$

从上式看出, 我们可以用单个 OLS 来获得 $\hat{τ} ({\hat{β}}_{1}, {\hat{β}}_{0})$ :

命题

(2.1) 的 $\hat{τ} ({\hat{β}}_{1}, {\hat{β}}_{0})$ 等于 $Y_{i}$ 在 $(1, Z_{i}, X_{i}, Z_{i} \times X_{i})$ 上回归后 $Z_{i}$ 的系数, 也就是之前提到的 ${\hat{τ}}_{L}$ .

基于这些讨论, 我们有一个保守的估计 ${\hat{τ}}_{L}$ 的量: $\begin{aligned} \hat{V} ({\hat{β}}_{1}, {\hat{β}}_{0}) = & \frac{1}{n_{1} (n_{1} - 1)} \sum_{i = 1}^{n} Z_{i} (Y_{i} - {\hat{γ}}_{1} - {\hat{β}}_{1}^{T} X_{i})^{2} \\ + \frac{1}{n_{0} (n_{0} - 1)} \sum_{i = 1}^{n} (1 - Z_{i}) (Y_{i} - {\hat{γ}}_{0} - {\hat{β}}_{0}^{T} X_{i})^{2} . \end{aligned}$

我们可以进一步证明上述命题中 OLS 的 EHW 标准误差几乎就是 $\hat{V} ({\hat{β}}_{1}, {\hat{β}}_{0})$ , 这是一个 CRE 下 ${\hat{τ}}_{L}$ 的保守估计. 但是这里有一个小问题: 方差 $Var {\hat{τ} (β_{1}, β_{0})}$ 对固定的 $(β_{1}, β_{0})$ 有效, 但 $\hat{τ} ({\hat{β}}_{1}, {\hat{β}}_{0})$ 用了两个估计量 $({\hat{β}}_{1}, {\hat{β}}_{0})$ , 这里额外的不确定性可能会导致有限样本下的偏差. 不过如果 ${\hat{β}}_{1} \to {\tilde{β}}_{1}$ , ${\hat{β}}_{0} \to {\tilde{β}}_{0}$ , 那么 $\hat{τ} ({\hat{β}}_{1}, {\hat{β}}_{0}) \sim \hat{τ} ({\tilde{β}}_{1}, {\tilde{β}}_{0})$ , 这个偏差就会消失.
事实上 $\hat{τ} ({\hat{β}}_{1}, {\hat{β}}_{0})$ , $\hat{τ} ({\tilde{β}}_{1}, {\tilde{β}}_{0})$ 之差取决于 $({\hat{β}}_{z} - {\tilde{β}}_{z})^{T} \hat{\overset{―}{X}} (z), z = 0, 1.$ 还是要强调, 在有限样本下回归调整可能是有害的, 必须要大的样本规模和一些潜在结果、协变量的正规性条件.

2.2.1 一个基于预测潜在结果的估计量

基于实验组的数据, 我们构建一个 $Y (1)$ 的预测模型 ${\hat{μ}}_{1} (X) = {\hat{γ}}_{1} + {\hat{β}}_{1}^{T} X .$
类似地, 也有 $Y (0)$ 的: ${\hat{μ}}_{0} (X) = {\hat{γ}}_{0} + {\hat{β}}_{0}^{T} X .$
给出如下科学表:

$X$	$Z$	$Y (1)$	$Y (0)$	$\hat{Y} (1)$	$\hat{Y} (0)$
$X_{1}$	$1$	$Y_{1} (1)$	?	${\hat{μ}}_{1} (X_{1})$	${\hat{μ}}_{0} (X_{1})$
$⋮$
$X_{n_{1}}$	$1$	$Y_{n_{1}} (1)$	?	${\hat{μ}}_{1} (X_{n_{1}})$	${\hat{μ}}_{0} (X_{n_{1}})$
$X_{n_{1} + 1}$	$0$	?	$Y_{n_{1} + 1} (0)$	${\hat{μ}}_{1} (X_{n_{1} + 1})$	${\hat{μ}}_{0} (X_{n_{1} + 1})$
$⋮$
$X_{n}$	$0$	?	$Y_{n} (0)$	$\hat{μ} (X_{n})$	${\hat{μ}}_{0} (X_{n})$
则我们可以有如下估计量: ${\hat{τ}}_{pred} = \frac{1}{n} {\sum_{Z_{i} = 1} Y_{i} + \sum_{Z_{i} = 0} {\hat{μ}}_{1} (X_{i}) - \sum_{Z_{i} = 1} {\hat{μ}}_{0} (X_{i}) - \sum_{Z_{i} = 0} Y_{i}} .$
可以证明它等于 ${\hat{τ}}_{L}$ (定义见 [[#^6a1ea6	这里]]). 如果我们即使对观察到的结果也进行预测, 我们有如下投影估计量 ${\hat{τ}}_{proj} = \frac{1}{n} \sum_{i = 1}^{n} {{\hat{μ}}_{1} (X_{i}) - {\hat{μ}}_{0} (X_{i})} .$
并且它也等于 ${\hat{τ}}_{L}$ .

2.2.2 从协变量不均衡性角度理解

我们可以证明等价形式 $\hat{τ} (β_{1}, β_{0}) = \hat{τ} - γ^{T} {\hat{τ}}_{X},$ 这里 $γ = \frac{n_{0}}{n} β_{1} + \frac{n_{1}}{n} β_{0}$ , 因此我们也可以改写成 $\hat{τ} (γ) = \hat{τ} (β_{1}, β_{0})$ . 类似地 ${\hat{τ}}_{L} = \hat{τ} - {\hat{γ}}^{T} {\hat{τ}}_{X}, \hat{γ} = \frac{n_{0}}{n} {\hat{β}}_{1} + \frac{n_{1}}{n} {\hat{β}}_{0} .$

2.3 一些其他的注解

ReM 和回归调整是对偶的. 具体来说, 当 $a$ 很小时, ReM 下 $\hat{τ}$ 的渐近分布几乎就是 CRE 下 ${\hat{τ}}_{L}$ 的渐近分布. 所以 ReM 在设计阶段使用协变量, 而回归调整中在分析阶段协变量.
回归调整和后分层等价. 如果我们有离散的协变量 $C_{i}$ 且有 $K$ 类, 我们可以创造 $K - 1$ 个中心化的 (0 均值) 的虚拟变量 $X_{i} = (1 {C_{i} = 1} - π_{[1]}, \dots, 1 {C_{i} = K - 1} - π_{[K - 1]}),$ 这里 $π_{[k]}$ 是 $C_{i} = k$
的比例. 此时, 回归调整和 SRE 等价:

命题

基于 $X_{i}$ 的 ${\hat{τ}}_{L}$ 在数值上等于基于 $C_{i}$ 后分层的 ${\hat{τ}}_{PS}$ .

一个常见的协变量是在进行试验前的结果. 此时我们可以使用 difference-in-difference (双重差分法) $\begin{aligned} \hat{τ} (1, 1) & = \frac{1}{n_{1}} \sum_{i = 1}^{n} Z_{i} (Y_{i} - X_{i}) - \frac{1}{n_{0}} \sum_{i = 1}^{n} (1 - Z_{i}) (Y_{i} - X_{i}) \\ = {\hat{\overset{―}{Y}} (1) - \hat{\overset{―}{Y}} (0)} - {\hat{\overset{―}{X}} (1) - \hat{\overset{―}{X}} (0)} . \end{aligned}$ 这是无偏估计, 有一个保守的方差 $\hat{V} (1, 1) = \frac{\sum_{i = 1}^{n} Z_{i} {g_{i} - \hat{\overset{―}{g}} (1)}^{2}}{n_{1} (n_{1} - 1)} + \frac{\sum_{i = 1}^{n} (1 - Z_{i}) {g_{i} - \hat{\overset{―}{g}} (0)}^{2}}{n_{0} (n_{0} - 1)},$ 这里 $\hat{\overset{―}{g}} (1), \hat{\overset{―}{g}} (0)$ 是增益值 $g_{i} = Y_{i} - X_{i}$ 的样本均值.

2.4 到 SRE 的推广

回顾 SRE. 如果每个分层都很大, 可以在分层上进行回归调整 ${\hat{τ}}_{L, S} = \sum_{k = 1}^{K} π_{[k]} {\hat{τ}}_{L, [k]} .$ 对应的保守方差估计 ${\hat{V}}_{L, S} = \sum_{k = 1}^{K} π_{[k]}^{2} {\hat{V}}_{EHW, [k]} .$

$\sim$ 表示这两个随机变量有相同的渐近分布. ↩︎
这里的"回归"是一个笼统的词, 可以是线性回归, Logistic 回归, 或者机器学习算法. 我们接下来讨论的会是基于 OLS 的. ↩︎
更保守指它的方差更大 ↩︎